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Resume. Nous etudions dans ce travail une methode de selection de variables basee 
sur le Lasso dans le contexte epidemiologique. L’un des objectifs est de construire auto- 
matiquement un modele predictif en limitant le recours aux experts medicaux qui operent 
des pretraitements sur les donnees collectees. Ces pretraitements consistent entre autres 
a recoder certaines variables en classe et a choisir manuellement certaines interactions en 
se basant sur la connaissance des donnees. L’approche proposee utilise toutes les variables 
explicatives sans traitement et genere automatiquement toutes les interactions entre les 
variables, ce qui nous conduit en grande dimension. Nous utilisons le Lasso qui est une 
methode robuste de selection de variables en grande dimension. Le nombre d’observa- 
tions dans les etudes epidemiologiques etant faible, nous proposons une validation croisee 
a deux niveaux pour eviter le risque de sur apprentissage dans la phase de selection de 
variables. Les estimateurs Lasso etant biaises et la variable d’interet qu’est le nombre 
d’anopheles a predire etant discret, nous utilisons un modele GLM pour debiaiser les 
variables selectionnees par le Lasso et faire de la prediction. Les resultats montrent que 
quelques variables climatiques et environnementales seulement sont des facteurs princi- 
paux lies an risque d’exposition an paludisme. 
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Abstract. In this study, we propose an automatic learning method for variables se¬ 
lection based on Lasso in epidemiology context. One of the aim of this approach is to 
overcome the pretreatment of experts in medicine and epidemiology on collected data. 
These pretreatment consist in recoding some variables and to choose some interactions 
based on expertise. The approach proposed uses all available explanatory variables wi¬ 
thout treatment and generate automatically all interactions between them. This lead to 
high dimension. We use Lasso, one of the robust methods of variable selection in high 
dimension. To avoid over htting a two levels cross-validation is used. Because the target 
variable is account variable and the lasso estimators are biased, variables selected by lasso 
are debiased by a GLM and used to predict the distribution of the main vector of malaria 
which is Anopheles. Results show that only few climatic and environmental variables are 
the mains factors associated to the malaria risk exposure. 
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1 Introduction 


Le paludisme est un probleme de sante publique en Afrique surtout dans la zone 
sub-saharienne. II constitue la premiere cause de mortalite pour des enfants de moins 
de cinq ans et frappe essentiellement les couches les plus vulnerables de la population : 
les femmes enceinte et les nouveau-nes. Des etudes de cohorte ont ete conduites dans 
les zones endemiques pour etudier la mise en place et revolution du systeme immuni- 
taire du nouveau-ne face a cette maladie. Ces etudes ont aussi pour objectif d’etudier 
les determinants lies a I’apparition des premieres infections palustres chez le nouveau-ne. 
Certaines etudes ont montre que la distribution du principal vecteur du paludisme qu’est 
I’anophele ainsi que le risque d’exposition an paludisme presentent des dependances a la 
fois spatiales et temporelles et non homogenes a une petite echelle (niveau maison) [2]. 
Dans I’analyse et le traitement des donnees issues de ces enquetes, les experts operent 
des pretraitements qui consistent entre autre a recoder certaines variables en classes et a 
choisir manuellement des interactions de fagon experte entre les variables explicatives. Ils 
utilisent ensuite des methodes classiques de type forward, backward pour la selection de va¬ 
riables [8]. L’objectif principal de ce travail est de s’affranchir de la phase de pretraitement 
des experts medicaux qui coute en temps et qui presente un risque et de construire de 
fagon automatique un modele predictif utilisant toutes les variables ainsi que toutes les 
interactions entres ces variables. Ce nombre eleve de variables nous conduit en grande 
dimension. Nous utilisons le Lasso, une methode regularisante qui fait a la fois de la 
selection est de I’estimation et qui est robuste pour la selection de variables en grande di¬ 
mension. Dans les enquetes epidemiologiques, les observations sont pen nombreuses. Dans 
la selection de variables, nous proposons une validation croisee a deux niveaux pour eviter 
le risque de sur apprentissage [7]. La variable d’interet est le risque d’exposition an palu¬ 
disme, qui revient an nombre d’anopheles collectes dans les maisons done discrete alors 
nous utilisons un modele simple de type GLM avec un hen poisson. Ainsi le GLM-Lasso 
permet de faire la selection de variables et le GLM permet de debiaiser les coefficients 
des variables selectionnees par le Lasso pour la prediction. Les resultats obtenus seront 
compares a ceux de la methode de reference (B-GLM) basee I’intervention des experts [2]. 
Ces resultats montrent que quelques variables climatiques et environnementales sont les 
facteurs principaux lies an risque d’exposition an paludisme. 


2 Methodologie 

2.1 Collecte des donnees et variables utilisees 

Les donnees utilisees dans ce travail proviennent d’une enquete epidemiologique conduite 
entre juillet 2007 et juillet 2009 dans la commune de Tori-Bossito an Benin. Les donnees 
sont de deux types : climatiques et environnementales (saison, quantite de pluie, type 
de vegetation, type de sol, etc), et des donnees entomologiques (nombre de moustiques. 
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nombre d’anopheles infectes ou non.). 


2.2 Modele d’etude 


Le GLM-Lasso consiste a penaliser la log-vraisemblance du GLM en ajoutant une 
penalite Li [3,4,5]. Les coefficients des variables sont donnes par : 


/3 


Arq max 

0 


P 

Iglm{(3\Y) + A ^ (3i 
i=l 


avec A > 0 


( 1 ) 


Le choix du parametre A se fait en minimisant le score. En pratique, I’equation ([T]) n’a 
pas de solution numerique exacte. On utilise I’approximation de Laplace, la methode de 
Newton-Raphson ou la methode du score de Fisher. Les coefficients du Lasso etant biaises, 
on utilise le GLM pour les debiaiser et faire de la prediction. Sous forme matricielle le 
GLM se presente comme suit : 

a\E(Ym = X/? (2) 

on (R|/5) suit une loi de Poisson de parametre E'(F|/3), n est le nombre observations, X la 
matrice de dimensions n x (p+ 1) des co-variables (environnementales et climatiques), /3 
est le vecteur de longueur {p + 1) des effects fixes y compris la constante, Y est le vecteur 
des observations de la variable d’interet. Ainsi 
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Si on pose Zi = {Y = yi\X = x) alors la vraisemblance des n observations peuvent etre 
definie comme : 

” p{xy)yi 

L(zi,..., z„) = n 77^ X ( 4 ) 
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et la log-vraisemblance devient : 
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2.3 Algorithme LOLO-DCV 

L’algorithme Leave one level out double cross-validation (LOLO-DGV) etudie dans ce 
travail est base sur une validation croisee statihee a deux niveaux. Le deuxieme niveau de 
validation croisee permet d’eviter le risque de sur apprentissage dans la phase de selection 


3 







Algorithme 2.1 LOLO-DCV 

1. Les donnees sont divisees en A-blocs 

2. A chaque etape du premier niveau de la validation-croisee 

(a) Les blocs sont regroupes en deux parties : Ea et Et, Ea ■ I’ensemble d’appren- 
tissage qui contient les observations de {N — l)-blocs, 

Et : I’ensemble de test, contenant les observations du dernier bloc. 

(b) On met de cote Et 

(c) deuxieme niveau de validation croisee. 

i. On opere une validation-croisee complete sur Ea 

ii. les deux parametres de regularisation X.min et A.lse sont recuperes. 

iii. Les coefficients des variables actives (variables a coefficient non nul) as- 
socies a ces deux parametres sont recuperes et debiaises. 

iv. On utilise un modele GLM pour faire de la prediction sur Et 
V. La presence V{Xi) de chaque variable est determinee 

3. I’etape (12^ est repetee jusqu’a faire de la prediction pour toutes les observations. 


de variables parce que le nombre d’observations n’est pas eleve. L’algorithme se presente 
comme decrit dans fl2.ip . II est base sur le score de validation qui est la deviance du 
modele definit comme : 

Score{\i) = Deviance{Xi) = 2 x {C^sat) - (7) 

on E(sat) est la log-vraisemblance du mod^e complet qui ajuste parfaitement les 
donnees, et log-vraisemblance du modele considere. 

Score(Xmax) = Deviance{NULL) = 2 x {C^sat) - (8) 

Le modele obtenu a A = Xmax on obtient modele nul (le modele contenant uniquement 
I’intercept). En posant 

w.) 

O COTCy Aynax ) 

on a : Deviance{Xi) = {1 — R) x Score{Xmax)- On salt que C{sat) = 0 et ainsi r devient le 
rapport de vraisemblance entre le modele considere et le modele nul. 

La valeur optimale X.min de A est celle qui minimise la fonction Score{.). 

X.min = Arg mm[S cor e{Xi)] (10) 

La valeur A.lse est telle que definie par T. Hastie et al qui minimise le score plus sa 
deviation standard [5]. Pour X.min et A.lse, I’algorithme determine les variables les plus 
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Table 1 - Criteres de qualite pour B-GLM 


Methode 

Deviance 

W.Deviance 

Pouvoir predictif (%) 

B-GLM 

3101.68 

3101.49 

73.53 


Table 2 Criteres de qualite pour LOLO-DCV 


Methode 

Deviance 

W.Deviance 

Pouvoir predictif (%) 

LOLO DGV lambajiiin 

5573.98 

5573.67 

78.76 

LOLO DGV lamba lse 

5573.98 

5573.67 

78.76 

Var freq lamba min 

2860.75 

2860.59 

75.00 

Var freq lamba_lse 

3259.69 

3259.53 

76.80 


frequentes (VarTreq), variables qui apparaissent un certain nombre de fois an premier ni¬ 
veau de la validation-croisee selon un send fixe. Ces sous ensembles de variables frequentes 
sont utilisee pour la prediction via un GLM. 

2.4 Pouvoir Predictif et critere de qualite 

Les criteres de qualite utilises pour la selection sont : La deviance definie plus haut, 
la deviance ponderee W.Deviance definie par : 

— X DevianceiXi) 

W.Deviance{\i) = — -—j- (11) 

Wi 

oil le nombre d’observations de I’ensemble d’apprentissage 
et le Pouvoir predictif Pa defini par : 

f Pa{Yi) = 1 si - 0.5 <Yi -Yi < 0.5 
\ Pa{Yi) = 0 sinon. 

oil Yi est la prediction pour chaque observation L). 

3 Resultats et Conclusion 

Le meilleur sous-ensemble optimal de variables pour chaque methode est : 

B-GLM ; La saison, le nombre de jours de pluie, la quantite moyenne de pluie, I’utilisation 
de repulsif, la vegetation, I’interaction entre saison et la vegetation. 
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LOLO-DCV : La saison et I’interaction entre le nombre de jours de pluie et le village. 
Les resultats des tables ([H [2]) montrent que les meilleurs predictions sont obtenues par 
LOLO-DCV et le sous ensemble optimale pour la prediction de LOLO-DCV est plus 
parcimonieux que celui obtenu par la methode (B-GML). Ces resultats montrent que 
la machine pent remplacer les experts pour la selection de variables et ameliorer leurs 
resultats. 
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